智能论文笔记

Gaussian Fourier Pyramid for Local Laplacian Filter

Yuto Sumiya , Tomoki Otsuka , Yoshihiro Maeda , Norishige Fukushima

分类：计算机视觉

2022-06-08

多尺度处理对于图像处理和计算机图形至关重要。光环是多尺度处理中的核心问题。通过扩展Laplacian金字塔以具有边缘保留特性，几种边缘保护分解可以解决局部拉普拉斯滤波（LLF）。它的处理成本很高；因此，提出了快速LLF的近似加速度，以线性插值多个拉普拉斯金字塔。本文通过傅立叶系列扩展进一步提高了精度，称为傅立叶LLF。我们的结果表明，对于相同数量的金字塔，傅立叶LLF具有更高的精度。此外，傅立叶LLF表现出用于内容自适应过滤的参数自适应性能。该代码可在以下网址获得：https：//norishigefukushima.github.io/gaussianfourierpyramid/。

translated by 谷歌翻译

Road Rutting Detection using Deep Learning on Images

Poonam Kumari Saha , Deeksha Arya , Ashutosh Kumar , Hiroya Maeda , Yoshihide Sekimoto

分类：计算机视觉

2022-09-28

道路车辙是严重的道路障碍，可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中，正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是，这些研究主要集中在检测裂缝，坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集，其中包括949张图像，并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型，以检测所提出的数据集上的道路插道，并对模型预测进行了定量和定性分析，以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6％的Map@iou = 0.5，语义分割模型PSPNET（RESNET-50）达到54.69，精度为72.67，从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。

translated by 谷歌翻译

RDD2022: A multi-national image dataset for automatic Road Damage Detection

Deeksha Arya , Hiroya Maeda , Sanjay Kumar Ghosh , Durga Toshniwal , Yoshihide Sekimoto

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-18

数据文章介绍了路线损坏数据集RDD2022，其中包括来自六个国家，日本，印度，捷克共和国，挪威，美国和中国的47,420条道路图像。图像已注释了超过55,000个道路损坏的实例。数据集中捕获了四种类型的道路损坏，即纵向裂缝，横向裂纹，鳄鱼裂纹和坑洼。设想注释的数据集用于开发基于深度学习的方法以自动检测和对道路损害进行分类。该数据集已作为基于人群传感的道路伤害检测挑战（CRDDC2022）的一部分发布。 CRDDC2022挑战邀请了来自全球的研究人员提出解决方案，以在多个国家 /地区自动道路损害检测。市政当局和道路机构可以使用RDD2022数据集，并使用RDD2022培训的模型用于低成本自动监测道路状况。此外，计算机视觉和机器学习研究人员可能会使用数据集对其他类型的其他基于图像的应用程序（分类，对象检测等）进行不同算法的性能。

translated by 谷歌翻译

Neural Density-Distance Fields

Itsuki Ueda , Yoshihiro Fukuhara , Hirokatsu Kataoka , Hiroaki Aizawa , Hidehiko Shishido , Itaru Kitahara

分类：计算机视觉

2022-07-29

神经领域对3D视觉任务的成功现在是无可争议的。遵循这种趋势，已经提出了几种旨在进行视觉定位的方法（例如，大满贯）使用神经场估算距离或密度场。但是，很难仅通过基于密度字段的方法（例如神经辐射场（NERF））实现较高的定位性能，因为它们在大多数空区域中不提供密度梯度。另一方面，基于距离场的方法，例如神经隐式表面（NEU）在物体表面形状中具有局限性。本文提出了神经密度距离场（NEDDF），这是一种新颖的3D表示，可相互约束距离和密度场。我们将距离场公式扩展到没有明确边界表面的形状，例如皮毛或烟雾，从而可以从距离场到密度场进行显式转换。通过显式转换实现的一致距离和密度字段使稳健性可以符合初始值和高质量的注册。此外，字段之间的一致性允许从稀疏点云中快速收敛。实验表明，NEDDF可以实现较高的定位性能，同时在新型视图合成中提供可比的结果。该代码可在https://github.com/ueda0319/neddf上找到。

translated by 谷歌翻译

Image Super-Resolution with Deep Dictionary

Shunta Maeda

分类：计算机视觉

2022-07-19

自从Dong等人的第一个成功以来，基于深度学习的方法已在单像超分辨率领域中占主导地位。这取代了使用深神经网络的传统基于稀疏编码方法的所有手工图像处理步骤。与明确创建高/低分辨率词典的基于稀疏编码的方法相反，基于深度学习的方法中的词典被隐式地作为多种卷积的非线性组合被隐式获取。基于深度学习方法的缺点是，它们的性能因与训练数据集（室外图像）不同的图像而降低。我们提出了一个带有深层字典（SRDD）的端到端超分辨率网络，在该网络中，高分辨率词典在不牺牲深度学习优势的情况下明确学习。广泛的实验表明，高分辨率词典的显式学习使网络在维持内域测试图像的性能的同时更加强大。

translated by 谷歌翻译

Involuntary Stabilization in Discrete-Event Physical Human-Robot Interaction

Hisayoshi Muramatsu , Yoshihiro Itaguchi , Seiichiro Katsura

分类：机器人

2022-06-28

人类不仅将机器人用作工具，而且还用作与人类的交互协助和合作，从而形成了人类机器人的互动。在这些相互作用中，反馈回路会导致不稳定的力相互作用，在这种情况下，力量升级使人类面临危险。先前的研究已经分析了自愿相互作用的稳定性，但在相互作用中忽略了非自愿行为。与先前的研究相反，本研究考虑了非自愿行为：人类的力量繁殖偏见是离散事件的人类机器人相互作用。我们基于数学偏见模型得出了渐近稳定性条件，发现偏差稳定了远离隐式平衡点的人类隐式平衡点，并破坏了该点附近的点。偏置模型，与隐式平衡点的相互作用的收敛性以及该点周围的差异通过使用三种不同的身体部位在三种相互作用下进行的行为实验来验证：手指，手腕和脚。我们的结果表明，人类与他们的非自愿行为暗中确保了自己与机器人之间的稳定和紧密的关系。

translated by 谷歌翻译

F3 Hand: A Versatile Robot Hand Inspired by Human Thumb and Index Fingers

Naoki Fukaya , Avinash Ummadisingu , Guilherme Maeda , Shin-ichi Maeda

分类：机器人

2022-06-14

用单个机器人手抓住各种大小和形状的各种物体是一项挑战。为了解决这个问题，我们提出了一只名为“ F3手”的新机器人手，受人食指和拇指的复杂运动的启发。 F3手试图通过将平行运动手指和旋转运动手指与自适应功能结合在一起来实现复杂的人类样运动。为了确认我们的手的性能，我们将其附加到移动操纵器 - 丰田人支持机器人（HSR），并进行了掌握实验。在我们的结果中，我们表明它能够掌握所有YCB对象（总共82个），包括外径的垫圈小至6.4mm。我们还构建了一个用于直观操作的系统，并使用3D鼠标掌握了另外24个对象，包括小牙签和纸夹以及大型投手和饼干盒。即使在不精确的控制和位置偏移量下，F3手也能够在抓住98％的成功率方面取得成功率。此外，由于手指的适应性功能，我们展示了F3手的特征，这些特征促进了在理想的姿势中抓住诸如草莓之类的软物体。

translated by 谷歌翻译

Classification of animal sounds in a hyperdiverse rainforest using Convolutional Neural Networks

Yuren Sun , Tatiana Midori Maeda , Claudia Solis-Lemus , Daniel Pimentel-Alarcon , Zuzana Burivalova

分类：机器学习

2021-11-29

为了保护热带森林生物多样性，我们需要能够可靠，便宜地和规模地检测它。通过机器学习方法从被动录制的SoundScapes检测自动化物种是对此目标的有希望的技术，但它受到大型训练数据集的必要性。在婆罗洲的热带森林中使用Soundcapes和通过转移学习创建的卷积神经网络模型（CNN），我们调查I）最低可行训练数据集规模，用于准确预测呼叫类型（'Sonotypes'）和II）的程度数据增强可以克服小型训练数据集的问题。我们发现甚至相对较高的样本尺寸（每个呼叫类型）导致平庸的精度，然而，无论分类学组或呼叫特征如何，数据增强都会显着提高。我们的研究结果表明，即使对于具有许多罕见物种的小型Sountscape的项目，转移学习和数据增强可以使用CNN来分类物种的发声。我们的开源方法有可能使节约计划能够通过在生物多样性的自适应管理中使用Soundscape数据来实现更有证据。

translated by 谷歌翻译

Utilizing Resource-Rich Language Datasets for End-to-End Scene Text Recognition in Resource-Poor Languages

Shota Orihashi , Yoshihiro Yamazaki , Naoki Makishima , Mana Ihori , Akihiko Takashima , Tomohiro Tanaka , Ryo Masumura

分类：计算机视觉 | 机器学习

2021-11-24

本文提出了一种用于端到端现场文本识别的新颖培训方法。端到端的场景文本识别提供高识别精度，尤其是在使用基于变压器的编码器 - 解码器模型时。要培训高度准确的端到端模型，我们需要为目标语言准备一个大型图像到文本配对数据集。但是，很难收集这些数据，特别是对于资源差的语言。为了克服这种困难，我们所提出的方法利用富裕的大型数据集，以资源丰富的语言，如英语，培训资源差的编码器解码器模型。我们的主要思想是建立一个模型，其中编码器反映了多种语言的知识，而解码器专门从事资源差的语言。为此，所提出的方法通过使用组合资源贫乏语言数据集和资源丰富的语言数据集的多语言数据集来预先培训编码器，以学习用于场景文本识别的语言不变知识。所提出的方法还通过使用资源贫乏语言的数据集预先列举解码器，使解码器更适合资源较差的语言。使用小型公共数据集进行日本现场文本识别的实验证明了该方法的有效性。

translated by 谷歌翻译

Hierarchical Knowledge Distillation for Dialogue Sequence Labeling

Shota Orihashi , Yoshihiro Yamazaki , Naoki Makishima , Mana Ihori , Akihiko Takashima , Tomohiro Tanaka , Ryo Masumura

分类：自然语言处理 | 机器学习

2021-11-22

本文提出了一种用于对话序列标记的新型知识蒸馏方法。对话序列标签是监督的学习任务，估计目标对话文档中每个话语的标签，并且对于许多诸如对话法估计的许多应用是有用的。准确的标签通常通过分层结构化的大型模型来实现，这些大型模型组成的话语级和对话级网络，分别捕获话语内和话语之间的上下文。但是，由于其型号大小，因此无法在资源受限设备上部署此类模型。为了克服这种困难，我们专注于通过蒸馏了大型和高性能教师模型的知识来列举一个小型模型的知识蒸馏。我们的主要思想是蒸馏知识，同时保持教师模型捕获的复杂环境。为此，所提出的方法，等级知识蒸馏，通过蒸馏来列举小型模型，而不是通过培训模型在教师模型中培训的话语水平和对话级环境的知识模拟教师模型在每个级别的输出。对话法案估算和呼叫场景分割的实验证明了该方法的有效性。

translated by 谷歌翻译